nvlinkfus

借助 NVIDIA NVLink 和 NVLink Fusion 扩展 AI 推理性能和灵活性

AI 模型复杂性的指数级增长驱动参数规模从数百万迅速扩展到数万亿，对计算资源提出了前所未有的需求，必须依赖大规模 GPU 集群才能满足。混合专家（MoE）架构的广泛应用以及测试时扩展（test-time scaling）在推理阶段的引入，进一步加剧了计算负载。